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摘 要 : 处 理 不 平衡 数据 分 类 时 ， 传 统 支持 向 量 机 技术 (SVM) 对 少数 类 样本 识别 率 较 低 。 鉴 于 SVM+ 技 术 能 利用 样本 
间 隐 藏 信息 的 启发 ,提出 了 多 任务 学 习 的 不 平衡 SVM+ 算 法 (MTL-IC-SVM+)。MTL-IC-SVM+ 基 于 SVM+ 将 不 平衡 数 
据 的 分 类 表示 为 一 个 多 任务 的 学 习 问 题 ， 并 从 纠正 分 类 面 的 偏 移 出 发 ， 分 别 赋予 多 数 类 和 少数 类 样本 不 同 的 错 分 惩罚 
因子 ， 且 设置 少数 类 样本 到 分 类 面 的 距离 大 于 多 数 类 样本 到 分 类 面 的 距离 。UCI 数据 集 上 的 实验 结果 表明 ， 
MTL-IC-SVM+ 在 不 平衡 数据 分 类 问题 上 具有 较 高 的 分 类 精度 。 
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Abstract: When learning from imbalanced datasets, the traditional support vector machines (SVMs) had a low rate of 


identification on the minority class. Inspired by that SVM+ can utilize the additional information hidden in the training data 


and multi-task learning can improve the generalization performance by training multiple related tasks simultaneously, this 


paper proposed a new support vector machine called multi-task learning SVM+ for imbalanced classification 


(MTL-IC-SVM+) . MTL-IC-SVM+ incorporated the multi-task learning framework into SVM+ to hand the problem of class 


imbalance by applying the different penalty factors to the data, especially, the margin between the hypersphere and the 


minority class was as large as possible. Experiments conducted on several UCI datasets Show that the proposed methods lead 


to very encouraging results on imbalanced datasets. 
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支持 向 量 机 (SVM ) 同时 以 结构 风险 和 经 验 风险 最 小 化 为 ” 易 导 致 数据 信息 的 不 完整 ， 同 时 真实 的 错 分 代价 在 代价 敏感 学 


原则 ， 能 利 


] 核 技术 处 理 非 线性 识别 问题 , 与 其 他 机 器 学 习 方 。 习 中 常 难 以 准确 估计 ; Boosting 技术 与 SVM 相 结 合 往往 伴 
法 相 比 ，SVM 具有 良好 的 泛 化 性 能 。 但 常规 的 SVM 都 只 适应 ”大 的 计算 量 ; 不 平衡 集成 学 习 一 般 通 过 迭代 的 方式 优化 训练 数 
于 数据 平衡 的 分 类 场景 , 而 在 不 平衡 数据 下 ,SVM 为 达到 整体 据 集 而 无 法 保证 分 类 结果 的 全 局 最 优 解 00.0。 

数据 分 类 误差 的 最 小 化 倾向 于 追求 多 数 类 样本 的 高 识别 率 ， 此 近期 研究 表明 ， 多 任务 学 习 通过 多 个 相关 任务 的 共同 学 习 
时 分 类 面向 少数 类 样本 偏 移 造成 少数 类 样本 的 高 误 判 率 023。 但 ”能 明显 提高 单个 任务 学 习 的 性 能 。 同 时 多 任务 学 习 能 有 效 利用 


欠 采 样 算法 四 ， 后 者 的 代表 有 代价 敏感 学 习 m、Boosting 技术 外 
和 不 平衡 集成 学 习 g 等 。 但 过 采样 易 出 现 过 拟 合 现象 ， 欠 采样 


在 实际 


苹 


用 中 ， 不 平衡 数据 广泛 存在 与 各 个 领域 ， 如 网 络 入 侵 ”任务 相关 性 ， 因 而 对 样本 较 少 的 分 类 情况 是 非常 有 效 的 02 里。 


检测 、 图 像 识 别 、 信 息 检 索 与 过 滤 、 医 疗 诊断 、 工 业 过 程 检测 。 受 此 启发 , 本 文 提出 不 平衡 SVM+ 分 类 算法 (multi-task learning 


等 B" 习 。 因 此 ,研究 SVM 在 不 平衡 数据 分 类 上 
的 和 值得 关注 的 。 目 前 ,， SVM 中 处 理 不 平衡 数据 的 策略 可 分 成 ” Vapnik 提出 的 SYM+ (建立 在 传统 SVM 模型 上 ， 但 将 松弛 变 
fF£ 和 基于 算法 调整 的 两 种 。 前 者 的 代表 有 过 采样 和 量 用 修正 函数 的 形式 表示 ， 用 以 挖掘 样本 间 隐 藏 的 结构 信息 。 


基于 数据 采 检 


的 应 用 是 有 必要 based on SVM+ for imbalanced classification, MTL-IC-SVM+ )。 
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鉴于 SVM+ 算 法 在 单 任务 学 习 中 的 高 泛 化 性 能 ， 本 文 在 SVM+ 


周 国 华 ， 


2 ”多 任务 学 习 的 不 平衡 SVM+ 算 法 (MTL-IC-SVM+) 


模型 的 基础 上 分 别 赋予 多 数 类 和 少数 类 样本 不 同 的 错 分 惩罚 因 
子 ， 且 基于 分 类 面 “ 大 间隔 ”的 策略 ， 设 置 少数 类 样本 到 分 类 ”2.1 目标 函数 构造 
面 的 距离 大 于 多 数 类 样本 到 分 类 面 的 距离 ， 同 时 参照 多 任务 学 由 式 (2) 容易 看 到 ，SVM+ 算 法 在 目标 函数 中 追求 训练 样 
习 的 框架 将 不 平衡 数据 的 分 类 表示 为 一 个 多 任务 的 学 习 问 题 ， 本 错 分 的 最 小 化 ， 即 
利用 相关 任务 间 的 有 效 信 息 来 提高 学 习 所 得 模型 的 泛 化 能 力 。 min Sy dt 而 
Ts 在 处 理 分 类 问题 时 ， 如 果 两 类 样本 容量 相差 较 大 ， 分 类 面 
为 了 提高 SVM 性 能 和 减少 训练 所 需 的 样本 数 , SVM+ 算 法 ”往往 向 少数 类 样本 偏 移 来 达到 整体 样本 低 错 分 率 的 目的 。 本 文 
将 样本 的 结构 信息 引入 到 SVM 模型 。 与 常规 SVM 中 松 Us 采取 两 类 样本 平均 错 分 率 最 小 原则 ， 同 时 ， 为 纠正 分 类 面 的 偏 
为 一 实数 不 同 ，SVM+ 中 松弛 变量 表示 为 一 组 修正 函数 。 设 给 。 移 , 寻找 的 分 类 面 在 达到 两 类 间距 离 的 最 大 化 的 同时 保证 少数 
定 样 本 集 天 ={fzxcoxzxzvj 和 其 对 应 的 类 别 标签 类 到 分 类 面 的 距离 不 得 小 于 多 数 类 到 分 类 面 的 距离 ， 因 此 式 (5) 
IZ={1 yw}(yi Ef 一 ,+]},i=1,2,…,N) ,依据 属性 特征 的 覆盖 可 改写 成 
范围 将 训练 样本 划分 成 + 组 ， 每 组 样本 及 其 标签 可 以 表示 为 1 蕊 
ee 
D,={{X,,Y},r=L,...,1}={(x,,y,) ER ,iceT} (6) 
(Ww- Hx) +b) -1—p") 
其 中 : 工 表示 分 组 编号 。SVM+ 使 用 核 技 术 将 训练 样本 映射 到 两 i 
个 不 同 的 Hilbert 空间 : (1) 使 用 核 函数 Xi) 将 全 部 训练 样本 其 中 : N 和 WN- 分别 是 少数 类 和 多 数 类 样本 的 个 数 ，v* 和 vy 为 
映射 至 决策 空间 Z， 并 对 应 得 到 决策 函数 〔(w, 5) 为 决策 函数 参 ”两 个 正常 数 , 用 来 调节 两 类 样本 的 错 分 比例 ; 常数 p? 保证 少数 
数 )) (2) 使 用 核 函 数 (x) 将 训练 样本 映射 至 修正 空间 2Z,, 并 ”类 到 分 类 面 的 距离 大 于 多 数 类 到 分 类 面 的 距离 。 
此 得 到 > 组 修正 函数 〈(COw gd) 为 修正 函数 参数 ))， 即 多 任务 学 习 的 特性 指 多 个 任务 中 的 数据 一 般 属 于 多 个 分 布 
G(X) =W, B(x) +d, 不 同 但 存在 共性 的 数据 域 中 ， 本 文 将 SVM+ 中 的 每 个 数据 分 组 
bx) eZ,,ieT,r=b,...,t (1) 看 成 是 一 个 子 任务 ， 自 然 地 可 以 将 该 SVM+ 改 造成 一 个 多 任务 
SVM+ 中 所 有 样本 使 用 同一 核 函 数 映射 至 同一 决策 空间 ; 学 习 模 型 。 依 据 多 任务 学 习 方 法 的 思想 ， 多 个 子 任 务 的 决策 模 
但 不 同 组 别 样本 映射 到 修正 空间 时 可 以 使 用 不 同 的 核 函 数 映射 型 应 该 是 相似 的 ， 在 保持 各 个 子 学 习 机 局 部 优化 的 同时 各 学 习 
至 不 同 的 核 空间 。SVM+ 目 标 函 数 可 以 表示 为 0 机 之 间 的 全 局 差异 最 小 化 。 此 时 ， 每 个 子 任务 的 决策 函数 广 可 
本 Dw A SY0, i er 以 表现 为 一 个 公共 决策 函数 go 和 修正 函数 g; 的 和 : 
Ba r=l ieT, 位 =g0+gr (7) 
St a BX) +D) 2211-6 ,ieT,,r=1,...,t 【 体 地 ， 决 策 函 数 广 可 以 写成 
EG =W, bx) +d,,ieT,r=l,...,t f(x)=w px) thtw, :$x td,,r=L,...,t (8) 
G0,ieT,r=l,...,t 2) 其 中 :对 于 全 体 样本 的 决策 函数 go =w.VX)+b， 对 应 于 每 个 子 


引 
为 如 下 


(ea 


入 非 负 的 Lagrange 因子 &, hp ，SVM+ 的 对 偶 问 题 可 表示 
二 次 规划 问题 


whe -3 Daye) Ge) + 
i=l j=i 


过 六 二 w+p- Oa +pB, -Ox x)) 


r=l i,jeT, 


N 
Ss.t. 7 y=0 
i=l 


D0 +B)=TC,r=l,..,t a 


0 >0,B >0,i=1,...,N 
过 对 上 式 的 求解 ， 可 得 SYVM+ 的 决策 函数 : 
f(x)=w:G(x)+b (4) 


任务 的 修正 函数 8, =w,:$(X)+d, 。 
基于 以 上 的 分 析 ， 给 出 MTL-IC-SYM+ 算 法 的 目标 函数 为 


wn 3 Wl, -Ww D+ 之 ) 
.pr bsdis 人 2 i 
i "Dp 


St WX) thD+w, bx)+d, >1-6, 


WwW- x) +b+w, bx)+d,)>1+p’ —6, 


>0,6 >0, ieT’,jeT ,r=b..,t (9) 


其 中 : m; 和 m, 分 别 表示 少数 类 和 多 数 类 样本 在 第 7 个 子 任务 


中 的 样本 个 数 , 每 个 子 任务 中 的 数据 规模 不 一 。v; 和 六 分 别 对 
应 第 了 个 子 任务 中 少数 类 和 多 数 类 的 正则 化 常量 。 常 数 表示 
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决策 函数 和 相关 修正 函数 间 的 权重 。 儿 和 分 别 表示 少数 类 


和 多 数 类 样本 在 第 了 个 子 任务 中 的 松弛 变量 。 
为 了 进一步 前 述 上 述 优化 目标 函数 的 机 理 ， 给 出 如 下 的 分 
析 与 说 明 : 
a)MTL-IC-SYVM+ 算 法 在 保证 每 个 子 任务 学 习 达 到 最 优 的 
同时 ， 需 要 考虑 这 7 个子 任 务 之 间 学 习 的 相似 性 和 一 致 性 ， 以 


获取 不 同 任务 间 有 益 的 归纳 信息 。 目 标 式 中 (ww,) 表示 各 


个 子 任务 之 间 的 差异 项 ， 其 数值 越 大 ， 表 示 各 任务 之 间 的 差异 
越 大 ， 反 之 ， 差 异 越 小 。 惩 罚 的 程度 则 用 参数 /来 调节 。 

b) 公 共 决 策 函 数 和 修正 函数 中 使 用 的 核 函数 可 以 相同 ， 也 
可 以 不 同 。 关 于 核 函 数 的 选择 ， 本 文 在 实验 部 分 有 详细 介绍 。 

co) 参照 SVM+ 对 属性 特征 划分 组 的 方式 来 产生 子 任 
MTL-IC-SVM+ 能 够 继承 SVM+ 利 用 样本 的 结构 信息 的 特性 , 通 
过 挖掘 样本 的 隐藏 信息 来 提高 模型 的 泛 化 能 
dSVM+ 目 标 函 数 中 ， 松 弛 变量 表示 为 修正 函数 ， 由 于 松 
弛 变量 不 得 小 于 0， 所 以 修正 函数 也 必须 大 于 等 于 0。 而 在 
MTL-IC-SVM+ 算 法 中 , 修正 函数 表示 为 任务 间 的 差异 程度 , 因 
此 修正 函数 无 需 设置 为 大 于 0。 

通过 引入 拉 格 朗 日 向 量 w 和 有 , 式 (9) 对 应 的 拉 格 朗 日 函 
数 可 以 写成 以 下 形式 : 


1 
L(W, wi Ws Pi Pi, di,...,d,,,0,p) = 2 ‘w) 


ei De A De 


Vv m, ieT” 六 m, jeT’ 


-y(y ap .Wi)+D+W pb(x)+d, -1+é) 


rl jer 
+ ow Gr) thtw, bx) td, +l+p, 一 
jeTy 
2 ,Dp (10) 
r=l ie77 r=1 je7- r=l 
根据 KKT 条 件 ， 可 得 
OL 
pn A > ag) (11) 
oL 1 才 
=0=>w,=— >》 0Qy,0 (x, 12 
Bw > 之 RAED (12) 
ye (13) 
Ob ieT: jeT; 
oL 
0 全 14 
op, 之 " 0 
oL 1 
=0=> a+p,= = i a 
Be Qa+p. Vi ie7 ,7 (15) 
@L 1 
=0=>>a,+p,= ,JET ,r=l,...,t 
Be +p Ve (16) 


将 式 (11)~(16) 代 入 (10)， ”可 得 到 式 (10) 的 对 侦 式 : 


周 国 华 ， 


min D200 Gx) bx, 


17D Yan, EACACHE 
j=1 


.Ghin&y 合 作 期 入 
:多 不 二 


任务 学 习 的 


衡 SVM+ 算 法 


)) 


$ (x))) 


ieT jeT 
1 + 
0 和 0oi 和 一 一 ,1E7 ,r=],...,t (17) 
Vm 
1 i 
0<wi< 一 一 ,Js7 ,r=],...,t 
Vm, 
;0,7=1,...,N 


式 (17) 易 知 '， MTL-IC-SVM+ 对 偶 


式 的 时 间 复 杂 度 为 


OGCV)， 若 采用 SMO 方法 求解 的 时 间 复 杂 度 为 O(N”)。 


2.2 v- 性 质 分 析 


练 样本 x,(1 <i< NN) 如 果 其 对 应 的 松弛 变量 
本 称 为 错 分 样本 。 设 心 和 n; 分 别 表示 第 


和 多 数 类 错 分 样本 的 个 数 ，s; 和 分 别 表 示 第 上 个 子 任务 中 少 


数 类 和 多 数 类 中 支持 向 量 的 个 数 。 


本 节 讨 论 MTL-IC-SYM+ 模 型 中 参数 v，v1 和 vw 参数 之 间 
的 关系 以 及 对 训练 精度 的 影响 。 根 据 SVM 基本 理论 ， 一 个 训 


和 >0 ， 那 么 这 个 样 
个 子 任务 中 少数 


‘下 


定理 1 yw 和 vw; 分 别 是 少数 类 和 多 数 类 的 错 分 率 的 上 界 


和 支持 向 量 集 的 下 界 ， 即 


+ 十 十 十 十 
1 71111 <vv, <s,/m,, 


n/m, <VV SS /mm, 


证 明 式 (17) 中 第 2 个 约束 项 是 之 


条 件 ， 所 有 > 0 的 样本 均 满足 B=0 (ie 


(17) 中 第 3 个 约束 项 可 以 看 出 ， 对 每 个 人 
的 每 个 错 分 样本 均 满 足 w =1/vim; (ieT， 


得 下 式 : 
712 /vim. < > w =y 


ieTt 


2 =v ,根据 KKT 
7, 了 T=].…1) 。 从 式 


E 务 中 少数 类 样本 中 
=1..,1) ， 因 此 可 


(19) 


此 外 ， 从 式 (17) 可 以 看 出 ， 每 个 任务 中 的 拉 格 朗 日 因子 


满足 @&; <1/vim; ， 将 这 些 w 相 加 ， 可 得 : 


十 + 十 
> w <s, /vm, 


ieT 


联合 式 (19) (20) 可 以 得 到 不 等 式 ni 


~ 


3 ”实验 与 分 析 


(20) 


十 十 十 十 
Im <vy, SS 7111 。 


类 似 的 方法 可 以 得 证 n/m SSv <s; /m,。 


依照 不 平衡 分 类 问题 中 常用 的 设 定 方 法 ， 实 验 中 将 少数 类 
指定 为 正 类 ， 将 多 数 类 指定 为 负 类 。 为 了 讨 


F 价 MTL-IC-SVM+ 


的 性 能 ,实验 将 从 两 方面 进行 : a) 针对 决策 函 eel 
核 函 数 的 选择 的 实验 ; b) 与 相关 不 平衡 算法 的 比较 性 实验 。 
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验 引 入 SVMI91 、SVM+05 、DEC06 、EasyEnsemble07] 和 Liver 数据 集 包 含 六 个 特征 ， 其 中 正 负 类 比例 是 29:40， 共 


AdaBoost131 与 本 文 所 提 算 法 进行 了 比较 。 这 五 种 算法 中 , SVM ”345 个 样本 。 实 验 中 多 任务 学 习 A 的 产生 是 依据 特征 ‘drinks 
作为 基线 算法 ; DEC、EasyEnsemble 和 AdaBoost 均 为 不 平衡 number of half-pint equivalents of alcoholic beverages drunk per 
分 类 算法 ， 与 之 比较 是 为 了 验证 本 文 算法 与 其 他 优秀 的 不 平衡 day”(drinks) 的 分 布 范围 将 数据 集 划 分 成 两 个 子 任务 : 子 任务 1 
算法 具有 可 比较 甚至 精度 更 高 的 性 能 。 所 有 算法 在 (drinks 夺 17，112 个 样本 )， 子 任务 2(18drinks 夺 36，111 个 样 


MATLAB2010b 环境 下 实现 ，SVM 算法 由 LIBSVM 软件 09 实 本 ) 和 子 任 务 3 (drinks >36，112 个 样本 )。 其 次 ，Pima 数据 集 
现 。 上 多 任务 学 习 B 是 依据 特征 ‘sgpt alamine aminotransferase’ (sgpt) 
3.1 实验 设置 的 分 布 范围 将 数据 集 划 分 成 三 个 子 任务 : 子 任务 1 (sgpt 志 20， 
为 体现 不 同 程度 的 不 平衡 性 对 算法 分 类 性 能 产生 的 影响 ， 104 个 样本 )， 子 任务 2 ( 21 入 sgpt 和 30，113 个 样本 ) 和 子 任 务 
本 文采 用 G-mean 评价 指标 来 评价 算法 的 分 类 性 能 : 3 (sgpt > 31，118 个 样本 )。 
OO 本 文 使 用 10 折 交 叉 验 证 按照 以 下 网 格 划分 在 训练 集 上 寻 
找 最 优 参数 :， SVM、SVM+ 和 本 文 所 提 方 法 的 高 斯 核 的 核 参 数 
其 中 : Positive Accuracy 为 正 类 (少数 类 ) 样本 的 分 类 精度 ， 在 [0.1, 0.2, 0.4, 0.6, 1, 1.5, 3]， 正 则 化 参数 C 在 [0.1, 1, 10, 100]， 


Negative Accuracy 为 负 类 (多 数 类 ) 样本 的 分 类 精度 。G-mean ”参数 7 在 [0.001, 0.1, 0.1, 1, 10]， 参 数 vy 在 [10, 30, 50, 70, 90]， 
指标 因 同 时 兼顾 多 数 类 和 少数 类 样本 的 分 类 精度 而 被 广泛 用 于 ”参数 和 v; 在 [0.001, 0.01]。 对 于 其 他 对 比 算法 ， 均 按照 原文 
处 理 不 平衡 数据 分 类 问题 。 参数 设置 方法 完成 设置 ， 其 中 DEC 中 参数 CVC+ 的 值 等 于 少数 

参照 文献 [15,20] 中 的 方法 ， 实 验 中 通过 给 属性 划分 数据 组 。” 类 样本 容量 与 多 数 类 样本 容量 的 比值 ， 对 于 EasyEnsemble 和 
的 方式 来 产生 若干 个 多 任务 学 习 。 鉴 于 医学 数据 集 常 出 现 类 别 ”Adaboost， 设 置 弱 分 类 器 的 个 数 是 10。 
的 不 平衡 的 现象 ， 本 节 将 在 4 个 UCI 医学 数据 集 C0 上 对 ”3.2 MTL-IC-SVM+ 中 核 类 型 的 选择 
MTL-IC-SVM+ 进 行 评价 。 这 四 个 UCI 医学 数据 集 分 别 是 Stalog 正如 前 文 所 述 , MTL-IC-SVM+ 算 法 中 的 决策 函数 和 修正 函 
Heart Disease (Heart), Pima Indians’ diabetes (Pima), Hepatitis 数 中 的 核 函 数 是 独立 的 ， 两 者 可 以 相同 也 可 以 不 同 。 实 验 中 分 
和 BUPA Liver (Liver ) 。 

Heart 集 包 含 13 个 特征 , 实验 中 随机 选择 40 个 正 类 样本 和 
150 个 负 类 样本 构成 190 个 样本 的 数据 集 , 正 负 类 比例 是 4:15。 ”类 型 组 合 ， 分 别 用 符合 M1、M2、M3 和 M4 表示 ， 如 表 1 所 
首先 ， 多 任务 学 习 A 依据 特征 ‘age” 的 分 布 范 围 将 数据 集 划 分 。 示 。 高 斯 核 的 核 参 数 c 和 0, 均 在 实验 设 定 的 范围 内 寻 优 获得 。 
成 3 个子 任务 : 子 任务 1 (age < 50，60 个 样本 )， 子 任务 2(50 ”为 了 找到 适用 于 MTL-IC-SVM+ 的 核 类 型 ， 实 验 中 分 别 将 表 1 
三 age<60, 66 个 样本 ) 和 子 任 务 3 (age 过 60,， 64 个 样本 )。 其 次 ， 所 示 的 四 种 核 类 型 组 合 在 Heart、Pima、Hepatitis 和 Liver 集运 
Heart 集 上 多 任务 学 习 B 依据 特征 'sex” 的 分 布 范围 将 数据 集 划  ” 行 ， 结 果 如 表 2 所 示 。 


别 在 两 者 中 使 用 线 | 


到 


生 核 和 高 斯 核 exp(-o|x 中 )， 共有 四 种 核 


dt 


分 成 2 个 子 任务 : 子 任务 1 (sex = 0,47 个 样本 ) 和 子 任务 2 (sex 表 1 MTL-IC-SVM+ 中 的 核 类 型 选择 

=1，143 个 样本 )。 核 类 型 决策 函数 中 的 核 类 型 修正 函数 中 的 核 类 型 
Pima 集 包 含 768 样本 ，8 个 特征 ， 其 中 正 负 类 比例 是 MI 线性 核 线性 核 

67:134。 Pima 集 上 多 任务 学 习 A 依据 特征 “age” 将 数据 集 划 M2 线性 核 高 斯 核 c> 

分 成 3 个 不 同 的 子 任务 : 子 任务 1 (age 和 25，267 个 样本 )， 子 M3 高 斯 核 0 线性 核 

任务 2 (26 三 age<39, 294 个 样本 ) 和 子 任务 3 (age 宇 40, 207 个 M4 高 斯 核 oO 高 斯 核 c> 

样本 )。 其 次 ， 多 任务 学 习 B 依据 特征 ‘diabetes pedigree 表 2 MTL-IC-SVM+ 不 同 核 类 型 下 的 G-mean 值 比较 

function”(pedigree) 的 分 布 范 围 划 分 3 个 子 任务 : 子 任务 1 数据 集 多 任务 名 称 MI M2 M3 M4 

(pedigree < 0.25，205 个 样本 )， 子 任务 2 (0.25 夸 pedigree 志 0.5， 70.13 72.86 76.62 78.58 

286 个 样本 ) 和 子 任务 3(pedigree >0.5，277 个 样本 )。 3 +1.01 +1.00 +1.14 +1.07 
Hepatitis 集 包含 19 个 特征 ， 实 验 中 随机 选择 30 个 正 类 样 71.00 72.59 76.08 78.09 

本 和 85 个 负 类 样本 构成 115 个 样本 的 数据 集 ， 正 负 类 比例 是 0 

6:17。 实 验 中 在 这 一 数据 集 上 产生 两 个 多 任务 学 习 ， 多 任务 学 67.13 69.06 71.55 73.09 

习 A 依据 特征 “steroid” 的 分 布 范 围 将 数据 集 划 分 成 2 个 子 任 | S00 +2.08 +1.83 +1.77 42.18 

务 : 子 任务 1 (steroid=1，58 个 样本 )， 子 任务 2 (steroid=2，57 7 67.00 69.13 7146 73.12 

个 样本 )。 多 任务 学 习 B 依据 特征 “malaise” 的 分 布 范围 将 数据 Sn 42.00 +1.94 +1.79 +2.02 

集 划分 成 2 个 子 任务 : 子 任务 1 (malaise=1，61 个 样本 ) 和 子 任 60.84 62.51 68.00 68.86 

Hepatitis 多 任务 A 


务 2 (malaise=2，54 个 样本 )。 +1.90 +2.03 +1.91 +1.66 


石 
BD 
OY 
人 
TT 
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60.32 62.11 67.89 68.41 b) 较 SVM 和 DEC 只 能 将 样本 映射 至 决策 空间 ， 
0 +1.78 +2.21 +1.85 +1.80 MTL-IC-SVM+ 可 以 将 样本 同时 映射 至 决策 空间 和 修正 空间 ,这 
61.06 61.99 65.77 66.24 为 MTL-IC-SVM+ 适 用 于 不 同 任务 的 训练 数据 提供 了 更 多 的 灵 

| +2.56 42.12 42.30 +42.38 活性 。 
a ee 61.15 61.84 65.82 66.13 c) SVM 和 SVM+ 未 考虑 数据 的 不 平衡 性 造成 分 类 面 的 优 
42.74 +42.33 42.85 42.86 移 ， 从 表 中 数据 可 知 ， 这 四 种 算法 对 应 的 Positive accuracy 值 
文献 [3] 得 出 结论 : SVM 在 绝 大 多 数 真 实数 据 上 使 用 非 线 。 较 低 ， 因 此 G-mean 值 也 低 于 其 他 算法 。 


性 核 的 分 类 效果 要 优 于 使 用 线性 核 的 情况 。 表 2 显 d) EasyEnsemble 和 Adaboost 算法 使 用 过 采样 技术 来 增加 
MTL-IC-SVM+ 在 各 数据 集 上 的 G-mean 值 最 优 值 均 在 M4 模型 。 ”少数 类 样本 的 数量 ， 由 于 改变 了 样本 的 分 布 结构 容易 造成 分 类 
上 获得 , 次 优 值 在 M3 模型 上 获得 ,而 在 M1 模型 获得 的 G-mean ”器 过 拟 合 的 现象 。 因 此 ， 这 两 种 算法 获得 的 G-mean 值 也 低 于 


值 均 是 最 低 的 。 显然， 本 文 所 提 MTL-IC-SVM+ 在 实验 中 验证 MTL-IC-SVM+。 


了 这 一 说 法 。 因 此 在 后 续 的 实验 中 ， 本 文 在 决策 函数 和 修正 函 为 了 进一步 评价 MTL-IC-SVM+ 在 不 同 正 负 类 比例 下 的 分 
数 上 均 使 用 高 斯 核 函 数 。 但 需要 说 明 的 是 ， 决 策 函 数 和 修正 函 ”类 性 能 ， 对 四 个 UCI 医学 数据 集 进行 改造 ， 各 类 数据 集 随 机 划 
数 中 使 用 的 高 斯 核 函数 使 用 不 同 的 核 参 ac 和 cv 。 分 成 训练 集 和 测试 集 ， 训 练 集 包含 从 多 数 类 样本 中 抽取 的 70% 
3.3 MTL-IC-SVM+ 性 能 比较 样本 和 根据 {20%，40%，60%，80%} 不 同 取 值 所 分 别 抽取 的 不 

为 了 评价 MTL-IC-SVM+ 在 不 平衡 分 类 问题 中 的 性 能 , 实 ， 同 的 少数 类 样本 ， 其 余 样 本 作为 测试 数据 集 。 考 虑 到 
验 中 将 MTL-IC-SVM+ 与 SVM、SVM+、DEC、EasyEnsemble 和 MTL-IC-SVM+ 中 两 个 多 任务 分 类 效果 相当 ,实验 中 在 每 个 数据 


Adaboost 在 四 个 不 平衡 UCI 数据 集 上 的 性 能 进行 了 比较 , 实验 。 集 上 按照 4.1 节 的 组 别 的 设置 生成 多 任务 A, SVM+ 中 的 分 组 属 
结果 如 表 3 所 示 。 从 表 中 数据 可 以 看 出 : 性 同样 使 用 多 任务 A 的 分 组 属性 。 实 验 中 依然 通过 10 折 交 叉 


uy 


a) MTL-IC-SVM+ 对 比 5 种 对 比 算法 在 四 个 不 平衡 数据 集 ”验证 的 方法 进行 参数 的 选择 ， 图 1 记录 了 六 种 算法 在 四 个 不 平 
上 均 取 得 了 最 好 的 G-mean 值 。 实 验 中 在 每 个 数据 集 上 均 建 立 。 衡 UCI 医学 数据 集 上 不 同 正 负 类 比例 下 G-mean 值 。 结 果 显 示 
了 两 个 任务 学 习 任务 ， 结 果 显 示 两 者 间 的 差距 不 大 ， 说 明 不 同 。” MTL-IC-SVM+ 对 于 各 数据 集 下 不 同 的 正 负 类 比例 均 具 有 优 FE 
的 属性 特征 中 均 蕴 含 一 定 的 样本 结构 信息 。 的 分 类 性 能 。 

表 3 UCI 数 据 集 上 不 同 分 类 器 分 类 效果 的 比较 
数据 集 算法 了 Positive accuracy Negative accuracy G-mean 
SVM 45.08+2.53 88.80+2.62 63.71+2.58 
SVM+ (分 组 属性 “age”) 47.19+2.05 88.00+2.42 64.47+2.16 
SVM+ (分 组 属性 “sex”) 47.10+2.47 87.75+1.74 64.29+2.02 
DEC 71.12+2.39 82.50+1.90 76.41+2.25 
EasyEnsemble 72.74+2.21 81.02+1.58 77.34+1.77 
Heart 
Adaboost 72.75+2.42 81.51+1.55 77.22+1.88 
MTL-IC-SVM+ 
_ 77.24+1.18 80.01+0.94 78.58+1.07 
(多 任务 A) 
MTL-IC-SVM+ 
76.19+1.08 80.44+0.88 78.09+1.09 
(多 任务 B) 
SVM 50.10+2.34 88.30+2.45 66.57+2.35 
SVM+ (分 组 属性 ‘age”) S23382:37 87.91+2.34 67.45+2.31 
SVM+ 
52.54+2.32 87.61+2.28 67.20+2.31 
(分 组 属性 “pedigree”) 
DEC 65.94+2.83 77.93+2.34 71.29+2.52 
Pima EasyEnsemble 68.12+2.56 76.80+2.11 72.64+2.46 
Adaboost 67.19+3.35 77.80+3.43 72.22+3.78 
MTL-IC-SVM+ 
a 71.05+2.13 75.80+2.06 73.09+2.18 
(多 任务 A) 
MTL-IC-SVM+ 
_ 71.42+2.21 75.82+2.08 73.12+2.02 
(多 任务 B) 
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Positive accuracy Negative accuracy G-mean 
SVM 35.76+1.07 97.75+2.24 59.03+1.64 
SVM+ 
39.43+2.47 95.58+1.96 61.16+2.07 
(分 组 属性 “steroid”) 
SVM+ 
39.86+2.53 95.27+2.31 61.26+2.44 
(分 组 属性 “malaise”) 
DEC 56.63+1.52 88.02+2.60 68.08+2.21 
Hepatitis 
EasyEnsemble 55.45+1.01 83.35+1.60 67.75+1.47 
Adaboost 55.35+2.72 83.41+1.60 67.70+2.01 
MTL-IC-SVM+ 
pe 57.32+1.75 81.76+1.50 68.86+1.66 
(多 任务 A) 
MTL-IC-SVM+ 
区 位 芭 57.15+1.24 81.76+2.13 68.41+1.80 
(多 任务 B) 
SVM 40.32+2.98 75.34+2.45 54.20+2.68 
SVM+ 
分 组 属性 43.79+2.74 72.85+2.24 56.11+2.36 
(分 组 属性 “drinks”) 
SVM+ (分 组 属性 “sgpt”) 43.29+2.73 73.03+2.44 55.01+2.66 
DEC 60.87+2.14 71.03+2.34 65.35+2.22 
Liver EasyEnsemble 60.03+2.32 71.56+2.62 65.37+2.47 
Adaboost 60.57+2.77 71.32+2.81 65.54+2.79 
MTL-IC-SVM+ 
训 丰 这 62.41+3.69 70.84+2.53 66.24+2.38 
(多 任务 A) 
MTL-IC-SVM+ 
人 61.83+2.30 71.52+2.42 66.13+2.86 
(多 任务 B) 
80 
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上 6 种 算法 在 不 同 正 负 类 比例 下 G-mean 比较 
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本 文 提出 的 MTL-IC-SVM+ 在 使 用 “大 间隔 ”的 机 制 设 置 少 
数 类 到 分 类 面 的 距离 大 于 多 数 类 到 分 类 面 的 距离 ， 并 按照 样本 
数 比例 设置 多 数 类 和 少数 类 样本 不 同 的 错 分 惩罚 因子 的 同时 ， 

将 SYVM+ 的 分 组 挖掘 样本 隐藏 信息 的 单 任 务 学 习 改造 为 多 任务 
学 习 的 模型 来 提高 模型 的 分 类 泛 化 能 力 。 在 4 个 不 平衡 UCI 数 
据 集 上 的 实验 表明 , MTL-IC-SVM+ 具 有 良好 的 分 类 性 能 。 应 当 
指出 ， 本 文 对 如 何 更 合理 地 选择 特征 属性 作为 划分 子 任务 的 依 
据 ， 以 及 MTL-IC-SVM+ 能 否 有 效 解决 大 样本 、 处 理 有 噪声 数 
等 问题 没有 进行 深入 探讨 ,MTL-IC-SVM+ 仍 面临 进一步 提高 
实用 性 的 挑战 ， 这 些 将 作为 笔者 近期 的 研究 
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